最近,多模式机器翻译(MMT)的研究激增,其中其他模式(例如图像)用于提高文本系统的翻译质量。这种多模式系统的特殊用途是同时机器翻译的任务,在该任务中,已证明视觉上下文可以补充源句子提供的部分信息,尤其是在翻译的早期阶段。在本文中,我们提出了第一个基于变压器的同时MMT体系结构,该体系结构以前尚未在现场探索过。此外,我们使用辅助监督信号扩展了该模型,该信号使用标记的短语区域比对来指导其视觉注意机制。我们在三个语言方向上进行全面的实验,并使用自动指标和手动检查进行彻底的定量和定性分析。我们的结果表明,(i)监督视觉注意力一致地提高了MMT模型的翻译质量,并且(ii)通过监督损失对MMT进行微调,比从SCRATCH训练MMT的MMT可以提高性能。与最先进的模型相比,我们提出的模型可实现多达2.3 bleu和3.5 Meteor点的改善。
translated by 谷歌翻译
基于变压器的语言模型利用注意机制在几乎所有自然语言处理(NLP)任务中进行大量绩效改进。在其他几个领域也广泛研究了类似的关注结构。尽管注意力机制可显着增强模型的性能,但其二次复杂性阻止了长序列的有效处理。最近的工作着重于消除计算效率低下的缺点,并表明基于变压器的模型仍然可以在没有注意力层的情况下达到竞争结果。一项开创性的研究提出了FNET,该研究将注意力层取代了变压器编码器体系结构中的傅立叶变换(FT)。 FNET通过消除注意机制的计算负担来加速训练过程,在加速训练过程的同时,实现了有关原始变压器编码器模型的竞争性能。但是,FNET模型忽略了FT的基本特性,可以利用经典信号处理,以进一步提高模型效率。我们提出了不同的方法,以有效地部署FT在变压器编码器模型中。我们提出的架构具有较少的模型参数,较短的培训时间,较少的内存使用情况以及一些额外的性能改进。我们通过对共同基准的广泛实验来证明这些改进。
translated by 谷歌翻译
自动图像分析中的不确定性定量在许多应用中高度满足。通常,分类或细分中的机器学习模型仅用于提供二进制答案。但是,量化模型的不确定性可能在主动学习或机器人类互动中起关键作用。当使用基于深度学习的模型时,不确定性量化尤其困难,这是许多成像应用中最新的。当前的不确定性量化方法在高维实际问题中不能很好地扩展。可扩展的解决方案通常依赖于具有不同随机种子的相同模型的推理或训练集合过程中的经典技术,以获得后验分布。在本文中,我们表明这些方法无法近似分类概率。相反,我们提出了一个可扩展和直观的框架来校准深度学习模型的合奏,以产生近似分类概率的不确定性定量测量。在看不见的测试数据上,我们证明了与标准方法进行比较时的校准,灵敏度(三种情况中的两种)以及精度。我们进一步激发了我们在积极学习中的方法的用法,创建了伪标签,以从未标记的图像和人机合作中学习。
translated by 谷歌翻译
光子计数CT(PCCT)通过更好的空间和能量分辨率提供了改进的诊断性能,但是开发可以处理这些大数据集的高质量图像重建方法是具有挑战性的。基于模型的解决方案结合了物理采集的模型,以重建更准确的图像,但取决于准确的前向操作员,并在寻找良好的正则化方面遇到困难。另一种方法是深度学习的重建,这在CT中表现出了巨大的希望。但是,完全数据驱动的解决方案通常需要大量的培训数据,并且缺乏解释性。为了结合两种方法的好处,同时最大程度地降低了各自的缺点,希望开发重建算法,以结合基于模型和数据驱动的方法。在这项工作中,我们基于展开/展开的迭代网络提出了一种新颖的深度学习解决方案,用于PCCT中的材料分解。我们评估了两种情况:一种学识渊博的后处理,隐含地利用了模型知识,以及一种学到的梯度,该梯度在体系结构中具有明确的基于模型的组件。借助我们提出的技术,我们解决了一个具有挑战性的PCCT模拟情况:低剂量,碘对比度和很小的训练样品支持的腹部成像中的三材料分解。在这种情况下,我们的方法的表现优于最大似然估计,一种变异方法以及一个完整的网络。
translated by 谷歌翻译
这项研究重点是探索局部可解释性方法来解释时间序列聚类模型。许多最先进的聚类模型无法直接解释。为了提供这些聚类算法的解释,我们训练分类模型以估计群集标签。然后,我们使用可解释性方法来解释分类模型的决策。这些解释用于获得对聚类模型的见解。我们执行一项详细的数值研究,以测试多个数据集,聚类模型和分类模型上所提出的方法。结果的分析表明,所提出的方法可用于解释时间序列聚类模型,特别是当基础分类模型准确时。最后,我们对结果进行了详细的分析,讨论了如何在现实生活中使用我们的方法。
translated by 谷歌翻译
在不利天气条件下的图像恢复对各种计算机视觉应用引起了重大兴趣。最近的成功方法取决于深度神经网络架构设计(例如,具有视觉变压器)的当前进展。由最新的条件生成模型取得的最新进展的动机,我们提出了一种基于贴片的图像恢复算法,基于脱氧扩散概率模型。我们的基于贴片的扩散建模方法可以通过使用指导的DeNoising过程进行尺寸 - 不足的图像恢复,并在推理过程中对重叠贴片进行平滑的噪声估计。我们在基准数据集上经验评估了我们的模型,以进行图像,混合的降低和飞行以及去除雨滴的去除。我们展示了我们在特定天气和多天气图像恢复上实现最先进的表演的方法,并在质量上表现出对现实世界测试图像的强烈概括。
translated by 谷歌翻译
我们检查了通过直播(OTA)聚合的联合学习(FL),移动用户(MUS)旨在借助聚合本地梯度的参数服务器(PS)在全球模型上达成共识。在OTA FL中,MUS在每个训练回合中使用本地数据训练他们的模型,并以未编码的方式使用相同的频带同时传输其梯度。根据超级梯度的接收信号,PS执行全局模型更新。尽管OTA FL的通信成本显着降低,但它容易受到不利的通道影响和噪声的影响。在接收器侧采用多个天线可以减少这些效果,但是对于远离PS的用户来说,路径损失仍然是一个限制因素。为了改善此问题,在本文中,我们提出了一种基于无线的层次FL方案,该方案使用中间服务器(ISS)在MUS更密集的区域形成簇。我们的计划利用OTA群集聚合与MUS与其相应的IS进行交流,而OTA全球聚合从ISS到PS。我们提出了针对所提出算法的收敛分析,并通过对使用ISS的衍生分析表达式和实验结果的数值评估显示,与单独使用较少的传输功率相比,利用ISS的结果比单独的OTA FL具有更快的收敛性和更好的性能。我们还使用不同数量的群集迭代以及不同数据集和数据分布来验证性能的结果。我们得出的结论是,群集聚集的最佳选择取决于MUS和集群之间的数据分布。
translated by 谷歌翻译
人们对人类情感状态的稀疏代表性格式的需求日益增长,这些格式可以在有限的计算记忆资源的情况下使用。我们探讨了在潜在矢量空间中代表神经数据对情绪刺激的响应是否可以用于预测情绪状态,并生成参与者和/或情绪特定于情绪的合成EEG数据。我们提出了一个有条件的基于变异自动编码器的框架EEG2VEC,以从脑电图数据中学习生成歧视性表示。关于情感脑电图记录数据集的实验结果表明,我们的模型适用于无监督的脑电图建模,基于潜在表示的三个不同情绪类别(正,中性,负)的分类,可实现68.49%的稳健性能,并产生的合成eeg序列共同存在于真实的脑电图数据输入到特别重建低频信号组件。我们的工作推进了情感脑电图表示可以在例如生成人工(标签)训练数据或减轻手动功能提取的领域,并为记忆约束的边缘计算应用程序提供效率。
translated by 谷歌翻译
灵活地处理各种机器人动作语言翻译任务是机器人和人之间自然相互作用的必不可少的要求。以前的方法需要更改推理过程中每个任务的模型体系结构的配置,这破坏了多任务学习的前提。在这项工作中,我们提出了配对的门控自动编码器(PGAE),以在桌面对象操纵方案中的机器人动作和语言描述之间进行灵活翻译。我们通过将每个动作与包含信号通知翻译方向的信号的适当描述配对,以端到端的方式训练模型。在推断期间,我们的模型可以从动作转化为语言,反之亦然,根据给定的语言信号。此外,为了选择使用预算语言模型作为语言编码器,我们的模型有可能识别看不见的自然语言输入。我们模型的另一个功能是,它可以通过使用机器人演示来识别和模仿另一个代理的动作。该实验结果突出了我们方法的灵活双向翻译能力,同时又可以推广到相反剂的作用。
translated by 谷歌翻译
自由能原理及其必然的积极推论构成了一种生物启发的理论,该理论假设生物学作用保留在一个受限制的世界首选状态中,即它们最小化自由能。根据这一原则,生物学家学习了世界的生成模型和未来的计划行动,该模型将使代理保持稳态状态,以满足其偏好。该框架使自己在计算机中实现,因为它理解了使其计算负担得起的重要方面,例如变异推断和摊销计划。在这项工作中,我们研究了深度学习的工具,以设计和实现基于主动推断的人造代理,对自由能原理进行深入学习的呈现,调查工作与机器学习和主动推理领域相关,以及讨论实施过程中涉及的设计选择。该手稿探究了积极推理框架的新观点,将其理论方面扎根于更务实的事务中,为活跃推理的新手提供了实用指南,并为深度学习从业人员的起点提供了研究,以调查自由能源原则的实施。
translated by 谷歌翻译